結合HMM 頻譜模型與ANN 韻律模型之國語語音合成系統 (A Mandarin Speech Synthesis System Combining HMM Spectrum Model and ANN Prosody Model) [In Chinese]
نویسندگان
چکیده
本論文研究了一種結合 HMM (hidden Markov model)頻譜模型與 ANN (articifical neural network )韻律模型的國語語音合成系統。在訓練階段,對各個訓練語料音框算出 DCC係數(discrete cepstrum coefficients),以作為頻譜特徵參數,接著對於一種音節的多 個發音,依 DTW (dynamic time warping)匹配出的頻譜演進路徑作分群,各群建立一個 HMM,並記錄各音節發音的文依性資訊。在合成階段,首先依據文依性資訊挑選出輸 入文句各音節的 HMM模型,接著判定音節 HMM的各個狀態為無聲、或有聲,然後使 用音長 ANN模型及狀態平均音長來決定 HMM各狀態應該產生的音框數。除了前人提 出的MLE(maximum likelihood estimate)法,我們另外研究二種內插方法來產生各音框的 DCC係數,以讓語音合成的速度達到即時處理。接著依據 DCC係數轉出的頻譜包絡, 及 ANN產生出的基週軌跡與音長,去控制 HNM (harmonic-plus-noise model)作語音信 號的合成。聽測實驗的結果顯示,使用所提出的加權式線性內插法來產生 DCC係數, 合成出的語音信號比起使用MLE法的,可以得到一些自然度的改進;另外,使用 ANN 音長參數,也比使用 HMM狀態本身的平均音長,會獲得明顯較高的自然度。
منابع مشابه
基於ANN之頻譜演進模型及其於國語語音合成之應用 (An ANN based Spectrum-progression Model and Its Application to Mandarin Speech Synthesis) [In Chinese]
متن کامل
結合聲學與韻律訊息之強健性語者辨認方法 (Combination of Acoustic and Prosodic Information for Robust Speaker Identification) [In Chinese]
語者辨認系統在公共電話網路中,通常會遇到未知不匹配話筒和辨認語料不足的問題。 為增進語者辨認系統對未知話筒之強健性,與有效利用有限語料,我們提出一融合下層聲學 與上層韻律訊息之架構,首先利用(1)最大相似先驗知識內插法(maximum likelihood-a priori knowledge interpolation,ML-AKI)方法估計與補償話筒聲學特性,並以(2)最小 錯誤鑑別式法則(Minimum Classification Error, MCE)訓練語者模型,以拉大不同語者間 聲學模型的距離,與利用(3)韻律訊息特徵分析(eigen-prosody analysis, EPA)為輔助,量 測不同語者間的韻律模型距離,最後利用(4)線性迴歸的方式融合聲學與韻律模型分數得到 最後的辨識結果。 實驗使用 Handset TIMIT(HTIMIT)語料庫,以 leave-on...
متن کامل雜訊環境下應用線性估測編碼於特徵時序列之強健性語音辨識 (Employing linear prediction coding in feature time sequences for robust speech recognition in noisy environments) [In Chinese]
近幾十年來,無數的學者先進對於此雜訊干擾問題提出了豐富眾多的演算法,略分成兩 大類別:強健性語音特徵參數表示法(robust speech feature representation)與語音模型調適 法(speech model adaptation),第一類別之方法主要目的在抽取不易受到外在環境干擾下 而失真的語音特徵參數,或從原始語音特徵中儘量削減雜訊造成的效應,比較知名的方 法有:倒頻譜平均值與變異數正規化法 (cepstral mean and variance normalization, CMVN)[1]、倒頻譜統計圖正規化法(cepstral histogram normalization, CHN)[2]、倒頻譜平 均值與變異數正規化結合自動回歸動態平均濾波器法(cepstral mean and variance normalization plus auto-r...
متن کامل基於音段式LMR 對映之語音轉換方法的改進 (Improving of Segmental LMR-Mapping Based Voice Conversion Methods) [In Chinese]
把一個來源語者(source speaker)的語音轉換成另一個目標語者(target speaker)的語音,這 種處理稱為語音轉換(voice conversion)[1, 2, 3],語音轉換可應用於銜接語音合成處理, 以獲得多樣性的合成語音音色。去年我們曾嘗試以線性多變量迴歸(linear multivariate regression, LMR)來建構一種頻譜對映(mapping)的機制[4],然後用於作語音轉換,希望 藉以改進傳統上基於高斯混合模型(Gaussian mixture model, GMM)之頻譜對映機制[3] 常遇到的一個問題,就是轉換出的頻譜包絡(spectral envelope)會發生過度平滑(over smoothing)的現象。我們經由實驗發現,音段式(segmental) LMR 頻譜對映機制不僅在平 均轉換誤差上可以比傳統 GMM 頻譜對映機...
متن کامل整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]
鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...
متن کامل